"""
Tf-idf文本特征提取
    关键字：TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现
    词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率

    假如一篇文件的总词语数是100个，
    而词语"非常"出现了5次，
    那么"非常"一词在该文件中的词频就是5/100=0.05。 TF
    假如一篇文件的总词语数是100个，
    而词语"好用"出现了5次，
    那么"好用"一词在该文件中的词频就是5/100=0.05。 TF
    而计算文件频率（IDF）的方法是以文件集的文件总数，
    除以出现"非常"一词的文件数。
    所以，如果"非常"一词在1,0000份文件出现过，
    所以，如果"好用"一词在1,000份文件出现过，
    而文件总数是10,000,000份的话，
    其逆向文件频率就是lg（10,000,000 / 1,0000）=3。idf
    其逆向文件频率就是lg（10,000,000 / 1,000）=4。idf
    最后"非常"对于这篇文档的tf-idf的分数为0.05 * 3=0.15
    最后"好用"对于这篇文档的tf-idf的分数为0.05 * 5=0.2


 无量纲化
        归一化
        标准化

算法：
    回归
        线性回归：
            线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
        损失函数：减少损失函数，让损失函数越小，预测越准
             正规方程
                 天才
                 缺点：当特征过多过复杂时，求解速度太慢并且得不到结果

             梯度下降
                努力型人才
    分类
    聚类
"""